Hướng dẫn lập trình CUDA: Chuyển dịch sang tính toán hướng đến năng suất

Tính toán đã trải qua một sự chuyển dịch căn bản từ tối ưu hóa độ trễ thiết kế CPU sang hướng đến năng suất kiến trúc GPU. Trong khi CPU giống như chiếc xe máy giao hàng tốc độ cao (nhanh với một gói hàng), thì GPU lại giống như một con tàu chở hàng khổng lồ: di chuyển chậm hơn mỗi đơn vị nhưng có thể chở tới 50.000 thùng hàng cùng lúc.

1. Độ trễ so với năng suất

Các CPU được thiết kế để giảm thiểu thời gian hoàn thành cho một chuỗi lệnh duy nhất bằng cách sử dụng dự đoán nhánh tinh vi. Ngược lại, Đơn vị xử lý đồ họa (GPU) được thiết kế để tối đa hóa "công việc trên giây" bằng cách thực thi hàng nghìn luồng song song, đánh đổi tốc độ của từng luồng riêng biệt để đạt được năng suất tổng cộng cực kỳ lớn.

2. Phân bổ bóng bán dẫn

GPU cung cấp năng suất lệnh và băng thông bộ nhớ cao hơn nhiều so với CPU trong cùng một mức giá và giới hạn điện năng. GPU chuyên dụng cho các phép tính song song mạnh mẽ và dành nhiều bóng bán dẫn hơn cho các đơn vị xử lý dữ liệu (ALU), trong khi đó CPU lại dành nhiều bóng bán dẫn hơn cho bộ nhớ đệm dữ liệu và điều khiển luồng.

3. Sự phát triển của CUDA

Kiến trúc thiết bị tính toán thống nhất (CUDA) được NVIDIA giới thiệu vào năm 2006. Đây là nền tảng tính toán song song và mô hình lập trình cho phép tăng đáng kể hiệu suất bằng cách tận dụng sức mạnh của GPU mà không phụ thuộc vào các API đồ họa.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which component consumes the majority of silicon real estate in a traditional CPU?

Arithmetic Logic Units (ALUs)

Control logic and Data Caching

Floating Point Units

Memory Controllers

QUESTION 2

What was the original purpose of the GPU before CUDA?

General purpose scientific computing

Operating system kernel management

Fixed-function hardware for 3D rendering

High-frequency trading

QUESTION 3

In the cargo ship analogy, what represents the 'Throughput'?

The speed at which the ship moves across the ocean.

The total volume of containers delivered at once.

The size of the ship's engine.

The fuel efficiency per container.

QUESTION 4

What is the primary trade-off made by GPUs to achieve high aggregate throughput?

Higher power consumption per unit.

Lower single-thread performance.

Reduced memory bandwidth.

Simplified mathematical precision.

QUESTION 5

Which NVIDIA software component is required to run CUDA applications?

DirectX 12

NVIDIA Driver and CUDA Toolkit

OpenGL Wrapper

Windows GDI+